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心理 学 院 暨 湖北 省 人 的 发 展 与 心理 健康 重点 实验 室 ， 青 少年 网 络 心理 与 


行为 教育 部 重点 实验 室 , 武汉 430079) C 福州 大 学 应 用 心理 学 系 ,福州 350108) 
( Department of Counseling Psychology, University of Wisconsin-Madison, Wisconsin 53703, USA) 


摘 要 主题 模型 (Topic Model) 作 为 一 种 计算 机 化 文本 分 析 方 法 ,目前 被 研究 人 员 应 用 于 心理 学 文本 分 析 领 
域 的 诸多 研究 中 。 在 心理 咨询 研究 领域 中 ,主题 模型 可 以 用 于 探索 咨询 过 程 中 咨询 师 和 当事人 之 间 谈 话 的 主 
题 ， 比 较 不 同治 疗 类 别 的 相似 性 ,以 及 进行 行为 编码 ; 在 社交 媒体 与 心理 健康 上 ,利用 主题 模型 可 识别 和 预 
测 各 种 心理 障碍 以 及 进行 人 格 计算 。 未 来 需要 关注 主题 模型 在 算法 和 操作 上 的 改善 ， 并 将 其 应 用 到 中 文 语 言 


环境 之 中 , 探索 中 文 文本 的 心理 学 内 涵 。 
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人 的 语言 活动 包含 复杂 的 心理 过 程 ， 并 且 语 
言 也 参与 诸如 知觉 、 记 忆 和 思维 等 许多 复杂 的 心 


， 这 些 文本 包含 着 丰富 的 心理 学 含义 ( 乐 国 安 ， 
BREL, BRE, LES, 2013)。 面 对 大 规模 富 含 研 
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HE (ERE, YEAR, 2006), ALIGN RB i 
人 们 将 自己 的 内 心 想法 和 情感 转化 成 其 他 人 能 理 
解 的 内 容 最 普遍 且 可 靠 的 方式 ， 是 认 知 、 人 格 、 
临床 和 社会 心理 学 家 试图 了 解 人 类 的 重要 媒介 
(Tausczik & Pennebaker, 2010)。 通 过 语言 文字 研究 
人 类 的 心理 活动 , 伴随 着 心理 学 发 展 的 整个 过 程 。 


值 的 文本 数据 ,使 用 传统 的 心理 学 研究 处 理 
方法 将 带 来 巨大 的 人 力 与 时 间 消 耗 ( 朱 廷 动 , 2016)。 

可 喜 的 是 ， 随 着 计算 机 文本 挖掘 技术 及 其 与 统计 
技术 的 结合 ， 所 发 展 的 计算 机 化 文本 分 析 技 术 
(Computerized Text Analysis) 为 研究 者 提供 了 新 的 
文本 研究 工具 ， 使 得 大 规模 的 文本 数据 研究 变 得 
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但 利用 传统 方法 对 大 文本 进行 研究 面临 困境 ， 
需要 新 的 研究 手段 。 比 如 ,长 期 以 来 心理 咨询 领 
域 积累 的 大 量 咨询 逐 字 稿 文 本 没有 被 利用 (Greenberg 
& Newman, 1996)， 从 上 世纪 40 年 代 罗 杰 斯 第 


次 对 心理 咨询 过 程 进行 录音 以 来 , 对 心理 咨询 评 
估 的 方法 就 没有 什么 改变 (Weusthoff et al., 2016)。 
此 外 ， 随 着 互联 网 技术 的 发 展 ， 人 们 在 社交 网 络 
中 发 表 了 大 量 包含 各 种 思想 、 情 感 、 观 点 的 文本 
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可 行 (Graesser, McNamara, & Kulikowich, 2011; Tausczik 
& Pennebaker, 2010). 

“主题 模型 ” (Topic Model) 是 计算 机 化 文本 分 
析 的 重要 方法 之 一 ,也 被 称 为 隐 含 的 狄 利克 雷 分 
布 (Latent Dirichlet Allocation, LDA; Blei, Ng, & Jordan, 
2003; Griffiths, Steyver & Griffiths, 2007), H FX} 
大 文本 具有 强大 的 分 析 与 建 模 能 力 ， 目 前 在 计算 
机 科学 、 语 言 学 、 管 理科 学 等 领域 得 到 了 广泛 的 
应 用 , 在 心理 学 领域 也 有 诸多 的 研究 与 应 用 (Kosinski， 
Wang, Lakkaraju, & Leskovec, 2016; Lee et al., 2017). 
本 文 在 对 主题 模型 的 原理 进行 前述 的 基础 上 ， 对 
国内 外 心理 学 领域 利用 主题 模型 开展 的 研究 及 其 
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局 限 进行 系统 梳理 ,并 对 未 来 的 研究 方向 作 展 望 。 
1 主题 模型 


11 主题 模型 的 发 展 

计算 机 化 文本 分 析 主 要 基于 两 个 层面 , 第 一 
个 层面 是 基于 词 频 统计 与 情感 倾向 分 析 对 文本 特 
征 进行 提取 ,这 种 分 析 方 法 的 思想 认为 人 的 词语 
语言 的 使 用 是 其 特质 和 心理 过 程 的 反映 ,通过 对 
词语 的 量化 统计 来 探索 语言 词语 的 使 用 和 心理 过 
程 之 间 的 关系 。 目 前 在 心理 学 领域 应 用 较 广 的 是 
Pennebaker 等 人 在 上 世纪 90 年 代 开 发 的 “语言 探 
索 与 字 词 计数 ”软件 (Linguistic Inquiry and Word 
Count, LIWC; Pennebaker, Chung, Ireland, Gonzales, 
& Booth, 2007), LIWC 在 人 格 特征 、 注 意 指向 、 思 
维 方式 、 亲 密 关 系 、 社 会 关系 、 人 情绪 与 心理 健康 
等 众多 研究 领域 有 着 大 量 的 应 用 (Tausczik & 
Pennebaker, 2010), BHA LIWC 和 我 国 台湾 学 者 编 
制 的 能 够 处 理 繁体 中 文 文本 的 CLIWC， 国 内 研究 
者 高 锐 等 人 (2013) 开 发 了 “ 文 心 ”(TextMind) 中 文 
语义 分 析 系 统 ， 其 词 库 、 文 字 和 符号 等 处 理 方法 
专门 针对 简体 中 文 语 境 ， 词 库 分 类 体系 也 与 
LIWC FRA AORE, 2016)。 虽 然 基 于 词 频 统 
计 和 情感 倾向 的 文本 分 析 方 法 取得 了 很 多 成 果 ， 
但 是 以 心理 词典 为 基础 的 文本 分 析 只 是 在 处 理 词 
语 的 阶段 ， 对 文本 的 分 析 也 只 能 受 限 于 词典 所 创 
建 的 词汇 类 别 ， 并且 词典 也 无 法 理解 语 境 、 反 话 、 
同义词 对 于 语义 的 影响 ,更 无 法 从 句子、 段落 等 
更 高 的 意义 单元 来 理解 文本 (Pennebaker, Mehl, & 
Niederhoffer, 2003; Imel, Steyvers, & Atkin, 2015). 

为 了 从 更 高 的 意义 单元 理解 文本 ， 获 取 准 确 
的 语义 信息 ， 需 要 结合 文本 背景 信息 探索 文本 语 
义 结构 ,这 也 是 计算 机 化 文本 分 析 的 第 二 个 层面 ， 
这 种 方法 源 于 Deerwester, Dumais, Furnas, Landauer 
和 Harshman (1990) 提 出 潜在 语义 分 析 (Latent Semantic 
Analysis, LSA), 该 方法 认为 可 以 从 整个 语言 的 统 
计 分 布 中 学 习 单 词 的 含义 ,并 提出 了 类 似 于 “ 主 
Wy“ A T AES" (artificial concept). 目前 LSA 在 
心理 学 领域 有 诸多 应 用 , 例如 它 是 语义 空间 研究 
的 主要 方法 之 一 ( 鲁 忠义 ， 孙 锦绣 ，2007)， 但 由 于 
一 个 词语 只 能 属于 一 个 人 工 概念 , LSA 无 法 解决 
“一 词 多 义 ” 的 问题 (Deerwester et al., 1990; Abdi & 
Williams，2010)。 并 且 LSA 提取 的 人 工 概念 可 理 
解 性 较 差 ， 最 为 重要 的 是 LSA 无 法 加 入 文本 元 数 


据 (作者 信息 、 文 本 发 表 时 间 、 学 术 论文 间 的 引用 、 
论文 发 表 会 议 名 称 等 ) 和 领域 知识 (其 他 文本 研究 
领域 的 研究 成 果 ， 如 人 工 定义 的 语义 概念 的 层次 
结构 )， 这 就 使 得 LSA 的 灵活 性 差 , 应 用 范围 相对 
狭小 ( 丁 轶 群 , 2010)。 

第 一 个 真正 意义 上 的 主题 模型 是 概率 性 潜在 
语义 分 析 (Probabilistic Latent Semantic Analysis/ 
Indexing, PLSA/PLSI; Hofmann, 1999), 它 借 鉴 了 
LSA 方法 的 长 处 , 并 且 LSA 的 三 个 问题 在 PLSA 
中 都 得 到 了 解决 , PLSA 图 模型 图 1 所 示 。 


图 1 PLSA 示意 图 
(资料 来 源 : Blei, Ng, & Jordan, 2003) 


图 中 的 白色 圆圈 代表 隐藏 着 的 随机 变量 ,一 
般 是 指 主题 等 潜在 语义 结构 ， 灰 色 的 圆圈 代表 我 
们 可 观测 到 的 文本 , M 代表 文档 数 , N 代表 文档 的 
KE, d 代表 文档 , z 代表 隐 含 的 主题 , w 代表 单词 ， 
TE PLSA 中 文本 生成 过 程 如 下 : 

(1) 随 机 选择 一 个 文档 d~p (d); 

(2) 根 据 p (zld) 选 择 一 个 隐 含 的 主题 ; 

(3) 根 据 主题 选择 w~p (wlz)， 直 至 文档 中 所 有 
单词 重复 上 述 过 程 。 

由 于 PLSA 模型 中 单词 可 以 以 概率 的 形式 在 
多 个 主题 中 存在 ， 所 以 一 词 多 义 的 问题 得 到 了 解 
决 (Hofmann，1999)。 此 外 PLSA 以 贝 叶 斯 网 络 为 
理论 基础 ， 元 数据 和 领域 知识 可 以 作为 额外 的 随 
机 变量 添加 至 模型 中 , IFA PLSA 提取 的 主题 比 
人 工 概 念 更 容易 理解 (Cohn & Hofmann, 2001). 但 
于 在 PLSA 中 隐 含 的 主题 中 p (zld) 的 参数 没有 
生成 的 方法 ， 而 是 直接 以 模型 参数 的 方式 表达 ， 
所 以 PLSA 并 没有 被 认为 是 完整 的 概率 性 文本 生 
成 模型 ( 徐 戈 ， 王 厚 峰 ,2011) 。 直 至 Blei, Ng 和 
Jordan (2003) 提 出 隐 含 的 狄 利克 雷 分 布 (Latent Dirichlet 
Allocation, LDA), 第 一 个 完整 的 概率 性 语义 生成 
模型 正式 出 现 , 现在 主题 模型 一 般 都 指 LDA 模型 。 
12 ”主题 模型 的 含义 

LDA 模型 通常 也 被 称 为 语义 模型 (Semantic 
Model)， 以 及 在 LDA 模型 基础 上 的 扩展 模型 。 它 
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是 利用 无 监督 的 机 器 学 习 (Unsupervised learning) 
程序 在 一 系列 文档 中 发 现 隐 含 语义 结构 的 一 种 统 
计 模 型 ， 隐 含 语 义 结构 由 一 组 相关 的 主题 构成 ， 
而 文本 以 概率 抽样 的 方式 从 该 潜在 语义 结构 中 生 
成 (Blei et al., 2003; Griffiths et al., 2007)。LDA 模 
型 可 以 用 贝 叶 斯 网 络 进 行 表 达 ， 具体 如 图 2 所 示 。 


OT. 
Qr i 


a 0 Z W 


图 2 LDA 模型 示意 图 
(资料 来 源 :Blei, Ng, & Jordan, 2003) 


图 中 圆圈 的 含义 与 图 1 相同 , 9 代表 主题 k 中 
词 项 的 概率 分 布 ,9 代表 文档 d 的 主题 概率 分 布 ， 
两 者 还 作为 多 项 式 分 布 的 参数 分 别 生成 主题 和 单 
T], M 代表 文档 数 , N 代表 文档 的 长 度 , K 代表 主 
题 数 。wdn 代 表 第 d 篇 文档 中 的 第 n 个 单词 , za n 
代表 第 d 篇 文档 中 的 第 n 个 主题 。a Mp 是 狄 利 
克 雷 分 布 的 参数 ,文本 由 抽样 的 方式 从 LDA 模型 
生成 ,文本 集合 D 中 长 度 为 N 的 某 文本 d 生成 过 
程 如 下 : 

(1) 从 泊 松 分 布 Poisson (&) 随 机 抽样 长 度 为 N 
的 文档 d, 

(2) 从 狄 利克 雷 分 布 Dirichlet(a) 中 抽样 文本 
和 各 主题 之 间 的 联系 ba 

(3) 对 文本 d 中 的 每 一 个 单词 was, nE (0,2, ..., 
Nd} 依 次 进行 如 下 操作 : 

a 从 多 项 分 布 Multinomial (60d) 抽 样 单词 wa n 
的 主题 zo n; 

b 从 多 项 分 布 Multinomial (wg, za n ) 中 抽 
取 单 词 Wd, no 

可 以 看 出 在 文本 生成 之 前 会 有 一 个 表示 文本 
和 主题 关系 的 9 先生 成 ， 它 是 一 个 代表 开 个 主题 
的 KK 维 向 量 ,， 其 中 的 元 素 值 之 和 为 1， 每 个 元 素 值 
表示 该 主题 在 文本 中 出 现 的 概率 , 接着 是 文本 中 
单词 wa ,的 生成 ， 先 抽取 单词 wa 所 属 的 主题 zu 
n, 然后 再 从 该 主题 中 抽取 单词 za ss， 然后 重复 以 


上 过 程 直至 抽取 文档 中 的 所 有 单词 。 主 题 模 型 的 
参数 有 多 种 估计 方法 ,如 变 分 贝 叶 斯 推 亲 (Variational 
Bayesian Inference, VB; Blei, Ng, & Jordan, 2003), 
目前 最 常用 的 方法 是 Gibbs 抽样 法 。 
1.3 ”主题 模型 的 优点 
1.3.1 ”突出 的 数据 降 维 能 

有 效 的 计算 机 化 文本 分 析 技 术 需 要 能 够 对 文 
本 进行 高 质量 的 降 维 , LDA 是 常用 的 降低 大 数据 
集 维 数 的 方法 之 一 ， 其 他 的 降低 数据 维 数 的 方法 
还 包含 主 成 分 分 析 (Principal Component Analysis, 
PCA) 以 及 奇异 值 分 解 (Singular Value Decomposition, 
SVD) 等 (Kosinski, Matz, Gosling, Popov, & Stillwell, 
2015; Park et al., 2015)。 由 于 大 数据 集中 通常 存在 
着 比 用 户 数 更 多 的 变量 , 在 这 种 情况 下 减少 数据 
的 维度 就 显得 十 分 的 必要 ,因为 大 多 数 统计 分 析 
要 求 变量 数 小 于 样本 量 ， 并 且 即 使 是 样本 量 大 于 
变量 的 情况 ， 降 低 数据 维度 会 降低 数据 过 度 拟 合 
的 风险 ,提高 统计 检验 力 ; 其 次 , 通过 对 数据 进 
行 分 组 ,可 以 消除 数据 中 的 多 重 共 线性 和 元 余 
(redundancy) 问 题 ; 第 三 , 一 个 小 的 维度 或 集群 的 
数据 ， 比 成 百 上 千 的 独立 变量 更 容易 对 问题 进行 
解释 ; 最 后 ， 降 低 维 度数 能 够 减少 进一步 分 析 所 
占用 的 内 存 以 及 计算 时 间 (Kosinski et al., 2016)。 
另外 和 PLSA 模型 一 样 ， 主题 模型 解决 了 一 词 多 
义 的 问题 ， 并且 对 数据 的 降 维 也 自 动 解决 了 多 词 
一 义 的 问题 。 
1.3.20 ”灵活 的 模型 扩展 能 
由 于 主题 模型 以 贝 叶 斯 网 络 为 理论 基础 ， 
此 元 数据 和 领域 知识 可 以 作为 额外 的 随机 变量 添 
加 至 模型 中 ， 也 能 够 把 不 同 的 主题 模型 合并 形成 
一 个 新 的 主题 模型 ( 丁 轶 群 , 2010)。 自 第 一 个 LDA 
模型 提出 来 以 后 ， 众 多 研究 人 员 根 据 不 同 研究 的 
需要 , 在 主题 模型 中 成 功 加 入 了 各 种 元 数据 信息 
从 而 构建 出 了 不 同 的 主题 模型 ， 如 相关 主题 模型 
(Blei &Lafferty, 2005)、 时 间 主 题 模 型 (Wang, Blei, 
& Heckerman, 2012) 等 ， 这 些 扩 展 模 型 极 大 的 丰 
富 了 主题 模型 的 应 用 范围 。 

另外 研究 人 员 通 过 在 LDA 模型 中 加 入 单词 
之 间 的 关系 、 语 法 知识 等 信息 ,在 一 定 程度 上 能 
够 克服 词 袋 模型 (bag of words) 带 来 的 问题 。 词 袋 
模型 将 文本 看 作 是 独立 词语 的 集合 ， 而 不 考虑 词 
语 出 现 的 顺序 ， 也 不 考虑 文本 的 句法 和 语义 信息 ， 
虽然 极 大 的 提高 了 文本 分 析 的 效率 ,但 是 也 存在 
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明显 的 缺陷 ,因为 词汇 的 分 布 顺序 、 词 的 结构 以 
及 语法 信息 都 会 影响 对 词汇 含义 的 理解 (Wallach， 
2006)。 将 这 些 词 汇 信 息 加 入 到 主题 模型 能 够 帮助 
我 们 获取 更 准确 的 语义 。 例 如 Andrews 和 Vigliocco 
(2010) 提 出 隐 含 马尔 科 夫 主题 模型 (Hidden Markov 
Topic Model, HMTM), 通过 关注 句子 之 间 顺 序 和 
一 般 语法 关系 ， 从 语言 中 获取 语法 和 语义 相关 性 ， 
从 而 对 语义 做 出 更 为 有 效 的 推断 。Body-Graber 
和 Blei (2009) 将 语法 树 结 构 加 入 到 主题 模型 中 构 
建 了 语法 主题 模型 (Syntactic Topic Models, STM). 
虽然 不 同 的 扩展 模型 之 间 存 在 差异 ,但 它们 都 应 
用 于 文本 主题 识别 以 及 文本 主题 之 间 关 系 的 研究 
CT KE, 2010). 

总 的 来 说 , LDA 模型 在 目前 看 来 是 一 种 较为 
优秀 的 计算 机 化 文本 分 析 方 法 。 一 方面 LDA 模 
型 在 一 定 程度 上 克服 了 基于 词 频 统计 和 情感 倾向 
分 析 的 计算 机 化 文本 分 析 方 法 的 局 限 性 ; 另 一 方 
i, FHF LDA 模型 在 LSA 以 及 PLSA 的 基础 上 发 
展 而 来 , 能够 从 更 高 的 语义 层面 进行 文本 分 析 的 
同时 , 也 在 一 定 程度 上 克服 了 LSA 及 PLSA 的 不 足 。 


2 主题 模型 在 心理 学 文本 分 析 领 域 的 具 
体 应 用 


由 于 主题 模型 强大 的 文本 分 析 能 力 ， 目 前 在 
文本 分 析 领 域 有 着 丰富 的 研究 与 应 用 。 近 年 来 ， 
主题 模型 在 心理 学 文本 分 析 领 域 的 应 用 也 逐渐 增 
多 , 我们 可 以 将 目前 主题 模型 在 心理 学 领域 的 应 
用 ， 分 为 利用 心理 咨询 文本 研究 和 网 络 行为 数据 
研究 。 接 下 来 结合 具体 研究 应 用 分 别 进行 介绍 。 
2.1 心理 咨询 领域 的 研究 

在 心理 咨询 领域 ， 主 题 模型 被 用 作 无 监督 或 


作为 无 监督 学 习 模 型 ， 主 题 模 型 主要 用 于 探 
索性 资料 分 析 ， 该 模型 利用 提供 的 咨询 逐 字 稿 的 
文本 , 来 探索 、 发 现 和 总 结 文本 中 讨论 的 主题 类 
型 ; 而 监督 学 习 模 型 ， 主 要 是 利用 主题 模型 来 预 
测 一 些 变量 ， 例 如 利用 标记 主题 模型 (Labeled 
Topic Model) 将 行为 编码 分 配 至 不 同 的 咨询 文本 
之 中 (Weusthoff et al., 2016)。 

2.1.1 ”心理 咨询 文本 的 探索 性 研究 

主题 模型 的 分 析 结 果 通 常 描述 了 咨询 过 程 中 
咨询 师 和 来 访 者 之 间 的 会 谈 主 题 ， 它 通过 统计 单 
词 之 间 的 共 现 (co-occurrence) 关 系 将 单个 单词 与 
主题 相关 联 ， 和 其 他 单词 共同 出 现 的 词 往往 被 放 
在 同一 主题 中 ， 即 主题 由 单词 列表 的 形式 呈现 。 
Atkins 等 人 (2012) 第 一 次 利用 主题 模型 对 约 有 650 
万 字 的 夫妻 治疗 逐 字 稿 进行 主题 抽取 ， 研 究 发 现 
诸如 “家 人 、 关 系 、 经 济 、 性 、 工 作 、 交 通 ” 六 个 
主题 会 在 夫妻 治疗 中 经 常 出 现 。 与 此 类 似 ，Imel 
等 人 (2015) 利 用 主题 模型 对 1,533 次 咨询 会 谈 进 
行 相似 主题 提取 ,模型 确定 了 咨询 过 程 中 发 生 的 
一 些 主题 , 例如 关系 类 主题 (包含 家 庭 角色 、 性 、 
亲密 关系 等 子 类 别 )、 治 疗 类 主题 (包含 行为 模式 、 
药物 目标 设 定 等 子 类 别 )、 情 绪 类 主题 (包括 焦虑 、 
抑郁 、 享 受 等 子 类 别 ) 及 其 他 类 别 。 

利用 主题 模型 可 以 发 现 咨询 过 程 中 的 特定 内 
容 ,例如 特定 干预 或 重要 话题 、 药 物 和 酒精 使 用 


= 


2 (Weusthoff et al., 2016)。 由 于 在 不 同 的 会 谈 水 平 ， 


如 谈话 轮 (talk turns) 或 整个 会 谈 (sessiom)， 主 题 模 
型 的 结果 会 以 概率 分 布 的 形式 呈现 ， 因 此 可 识别 
具有 特定 内 容 (例如 特定 干预 或 重要 主题 ) 的 单个 
谈话 轮 ， 例 如 Gaut, Steyvers, Imel, Atkins 和 Smyth 
(2017) 使 用 主题 模型 对 咨询 逐 字 稿 谈话 轮 水 平 进 


监督 的 学 习 模 型 (John Lu, 2010)。 主 题 模 型 本 身 是 
一 种 无 监督 机 器 学 习 的 统计 模型 ， 无 监督 的 机 器 
学 习 是 指 通过 数据 内 在 的 一 些 属性 和 联系 ， 将 数 
据 自动 分 类 ; 此 外 机 器 学 习 还 有 监督 学 习 (Supervised 
Leaming) 和 半 监 督学 习 (Semi- Supervised Learning). 监 
督学 习 是 指 在 知道 数据 包含 类 别 情况 下 ， 我 们 可 
以 先 对 一 部 分 数据 (训练 数据 ) 标 注 类 别 ， 并 将 此 
通过 算法 推广 到 剩余 数据 中 ; 半 监 督学 习 是 指 利 
用 大 量 的 无 标注 数据 来 改进 监督 人 学习， 利用 观察 
数据 (包括 已 标识 数据 和 未 标识 数据 ) 及 相关 的 知 
识 对 未 标识 的 观察 数据 的 标识 做 出 适当 合理 的 推 
断 ， 从 而 训练 出 更 好 的 分 类 器 ( 陈 凯 ， 朱 钰 , 2007)。 


行 主题 抽取 ,发 现 主题 模型 能 够 较 好 的 提取 关于 
“物质 使 用 ”等 主题 。 

另外 可 以 利用 主题 模型 比较 不 同心 理 治疗 方 
法 的 语言 相似 性 (Rubin, Chambers, Smyth, & Steyvers, 
2012). Imel 等 人 (2015) 利 用 主题 模型 对 4 种 不 同 
疗法 的 咨询 逐 字 稿 (N = 1,553) 主 题 提 取 结 果 对 每 
个 会 谈 进行 比较 , 这 4 种 疗法 分 别 是 药物 疗法 、 
心理 动力 学 疗法 、 认 知行 为 疗法 和 人 文 /存在 疗法 ， 
结果 发 现 尽 管 每 种 疗法 内 部 存在 某 些 差 异 , 但 是 
相同 的 治疗 方法 在 语言 上 倾向 于 相似 。 
2.1.2 ”行为 编码 
标记 主题 模型 是 一 般 主 题 模型 的 一 种 扩展 
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式 ， 可 以 利用 它 来 预测 行为 编码 (Atkins，Steyvers， 
Imel, & Smyth, 2014; Gaut et al., 2017)。 目 前 对 于 
心理 治疗 的 有 效 成 分 的 研究 并 不 直接 依靠 咨询 过 
程 中 的 语言 ， 而 是 主要 依靠 来 访 者 或 治疗 师 的 自 
我 报告 或 者 行为 编码 系统 来 量化 会 谈 信 息 。 一 方 
面 利 用 编码 手册 对 咨询 文本 进行 编码 相当 耗 时 ， 
且 扩 大 咨询 会 谈 评估 规模 意味 着 更 大 的 人 力 投 
入 ,例如 随 着 咨询 文本 长 度 的 增加 ， 人 工 编 码 耗 
时 也 会 成 倍 的 增加 。 另 外 一 方面 建立 一 套 编 码 系 
统 通常 面临 几 个 限制 ,首先 由 于 人 工 编码 会 花费 
大 量 的 时 间 和 精力 ; 其 次 人 工 编码 经 过 了 事先 定 
义 , 难以 发 现 文 本 中 新 的 内 容 ; 并 且 非 标准 化 编 
码 系统 无 法 扩展 到 更 大 的 数据 集 ; 从 编码 者 角度 
来 看 ， 编 码 者 的 主观 性 难以 避免 ,并 且 他 们 评定 
肖 极 色彩 的 文本 时 情绪 可 能 会 受到 干扰 ,评分 者 
信 度 也 难以 保证 (Tucker & Rosenberg, 1975; Tausczik 
& Pennebaker, 2010; Atkins et al., 2012; Gaut et al., 
2017); 此 外 , 行为 编码 系统 一 般 不 能 跨 文化 直接 
使 用 , 这 也 阻碍 了 人 工 编 码 系 统 的 运用 和 推广 
(Zimmermann, Baucom, Irvine, & Heinrichs, 2015)。 
由 于 主题 模型 的 结果 并 不 是 直接 能 够 得 到 的 编码 ， 
但 主题 与 行为 或 内 容 编码 (如 症状 ) 或 潜在 的 背景 
编码 相对 应 ， 因 此 可 以 利用 标记 主题 模型 学 习 单 
词 与 主题 之 间 的 相关 ， 并 利用 编码 表示 咨询 谈话 
轮 或 会 谈 的 内 容 ， 这 样 可 以 在 一 定 程度 上 能 够 代 
奉 人 工 编码 ,节省 人 工 编码 的 人 财物 消耗 。 

目前 利用 标记 主题 模型 进行 行为 编码 有 诸多 
研究 ， 越 来 越 多 的 研究 结果 表明 利用 标记 主题 模 
型 等 方法 能 够 有 效 的 预测 咨询 会 谈 中 的 行为 编码 
(Tanana, Hallgren, Imel, Atkins, & Srikumar, 2016). 
Atkins 4% (2014) X& F ZI LS UTR AR 73 Zia 3 FI 
(MISC, Motivational Interviewing Skills Code; Mille 
Moyers, Ernst, & Amrhein, 2008), 利用 人 工 编 码 
的 方式 对 899 个 动机 式 访谈 的 会 谈 随 机 抽取 站 
148 个 进行 编码 ,然后 利用 标记 主题 模型 学 习 一 
部 分 被 编码 的 会 谈 。 使 用 ROC 曲线 (AUC) 下 的 面 
积 来 评估 标记 主题 模型 正确 识别 人 造 编 码 的 能 
其 中 AUC 取 值 范围 为 0.5( 机 会 性 能 ) 至 1( 完 美 预 
W), 模型 结果 (AUC = 0.75) 明 显 优 于 机 会 性 能 
(AUC = 0.5), 在 几 个 编码 上 (如 Complex Reflections, 
Information Giving) 模 型 的 可 靠 性 与 人 相当 , 但 对 
于 其 他 编码 (如 Change Talk, Sustain Talk) 人 的 可 
靠 性 明显 优 于 模型 的 性 能 ， 如 果 将 人 工 编码 误差 
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考虑 进去 ,在 某 些 编码 项 目 上 标签 主题 模型 的 编 
码 方 法 会 对 人 工 编码 的 方法 产生 很 大 的 挑战 。 
Gaut 等 人 (2017) 利 用 标记 主题 模型 学 习 咨 询 会 谈 
"PRSE. SD. DUE. ICE RE. ERE RU" 
五 个 症状 类 主题 , 将 标准 机 器 学 习 分 类 器 - 套 索 
逻辑 回归 (Lasso Logistic Regression, LLR) 作 为 对 
标记 主题 模型 进行 比较 的 基准 模型 ， 结果 显示 两 
种 模型 的 编码 预测 结果 都 优 于 随机 编码 水 平 ， 标 
记 主 题 模型 显示 出 比 LLR 模型 更 高 的 预测 精度 ， 
并 且 准 确 度 接 近 受 训 的 人 工 编码 者 。 
2.2 ”社交 媒体 与 心理 健康 

网 络 对 我 们 的 生活 造成 了 不 可 逆转 的 影响 ， 
每 天 数 10 亿 的 用 户 在 网 络 上 留 下 的 痕迹 会 产生 
海量 数据 ， 将 这 些 数据 记录 保存 下 来 可 以 用 于 探 
究 用 户 在 互联 网 使 用 中 的 相关 心理 因素 ( 朱 廷 动 ， 
TERRAE, US, XU, 2015)。 很 多 心理 障碍 患者 
需要 长 期 持续 的 支持 系统 来 提供 帮助 ， 利 用 网 络 
进行 社交 对 于 与 心理 障碍 长 期 斗争 的 人 来 说 具有 
独特 的 价值 ， 他 们 会 在 社交 网 络 上 发 表 自 己 的 言 
论 并 寻求 各 种 信息 ， 因 此 社交 媒体 被 认为 是 一 些 
心理 健康 调查 资料 来 源 的 新 场所 (de Choudhury, 
Gamon, Counts, & Horvitz, 2013)。 主 题 模型 也 因 
此 也 被 用 于 探索 他 们 的 语言 使 用 特点 、 捕 捉 他 们 
行为 和 心理 特征 。 
2.2.1 ”探索 心理 健康 内 容 

利用 不 同心 理 障碍 人 群 在 社交 媒体 上 发 布 的 
信息 ， 可 以 获得 他 们 关注 的 问题 ， 也 能 够 帮助 我 
们 获得 关于 不 同心 理 障碍 的 见解 。 对 抑郁 症 患者 
在 社交 网 络 上 发 布 的 信息 进行 主题 提取 ， 
Preotiuc-Pietro 等 (2015) 发 现 抑 郁 症 患者 的 语言 内 
容 清晰 的 与 郁 抑 症 症状 标准 相映 射 ; 刘 郁 文 (2017) 
使 用 主题 模型 对 中 国 台湾 地 区 三 个 医疗 网 站 和 一 
个 线 上 同 傍 支 持 性 论坛 上 关于 抑郁 症 的 文本 资料 
进行 文本 分 析 ， 发 现 医 患 之 间 主 要 讨论 的 是 抑郁 
症状 、 药 物 使 用 、 治 疗 方式 和 家 庭 相 关 的 4 个 主 
题 ， 同 傍 之 间 的 讨论 则 与 负面 情绪 发 生 原因 、 压 
力 来 源 、 非 药物 治疗 、 同 傍 支 持 与 鼓励 以 及 医疗 
资讯 共享 五 个 主题 相关 。 Mitchell, Hollingshead 和 
Coppersmith (2015) 通 过 对 174 个 精神 分 裂 症 患者 
在 Twitter 上 发 表 的 内 容 进 行 主题 建 模 ， 发 现 精神 
分 裂 症 患者 Twitter 内 容 会 包含 其 他 心理 健康 问题 ， 
这 与 我 们 知道 的 精神 疾病 之 间 通 常 存在 着 共 病 的 
认识 相 一 致 。 
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另外 通过 将 文本 内 容 与 元 数据 统一 起 来 进行 
主题 建 模 ， 能 够 帮助 我 们 在 获得 某 一 类 精神 障碍 
患者 言谈 主题 的 同时 也 能 够 更 好 地 理解 他 们 的 活 
动 模式 .本 等 人 (2014) 使 用 阿 斯 伯 格 综合 症 论坛 的 
29,947 个 帖子 ， 并 将 972 个 用 户 信息 以 及 1,939 个 
帖子 和 作者 之 间 的 关系 的 线程 结构 (Thread 
Structure) 作 为 元 数据 构建 主题 模型 。 之 后 ， 模 型 
结果 发 现 ,他 们 对 心理 健康 和 社会 福利 等 问题 有 
较 多 的 担忧 ,会 更 多 的 讨论 如 何 生活 得 更 好 的 策 
略 等 。 另 外 由 于 元 数据 的 加 入 ， 主 题 提 取 结 果 也 
提供 了 更 多 有 利于 深入 理解 症状 的 细节 ， 比 如 ， 
涉及 具体 个 人 卫生 相关 的 主题 (例如 如 何 刮 胡子 ， 
这 对 于 阿 斯 伯 格 综合 症 患 者 而 言 是 困难 的 ， 因 为 
他 们 可 能 会 被 剃 须 刀 产生 的 声音 和 震动 吓 倒 )。 
2.2.2 ”识别 精神 障碍 

主题 模型 对 于 社交 媒体 中 的 文本 进行 分 析 ， 
能 够 发 现 包 含 心理 障碍 的 各 类 疾病 ， 此 外 利用 主 
题 模型 的 提取 结果 能 够 有 效 区 分 健康 人 群 和 精神 
障碍 患者 .Paul 和 Dredze (2014) 对 2011 年 至 2013 
年 的 1.44 亿 条 Twitter 消息 自动 提取 健康 主题 ， 结 
果 表 明 主 题 模 型 可 以 发 现 许多 身心 疾病 (如 焦虑 、 


这 种 障碍 ，Schwartz 等 人 (2014) 利 用 n-gram 主题 
模型 (Wang, McCallum, & We, 2007) 的 结果 及 词语 
使 用 对 28,749 位 Facebook 用 户 的 不 断 更 新 的 状态 
构建 回归 模型 并 预测 用 户 的 抑郁 症状 与 时 间 变 化 
之 间 的 关系 ,， 利用 模型 来 估计 用 户 在 不 同 季节 的 
抑郁 变化 ， 发 现 与 文献 研究 一 致 (Golder & Macy, 
2011), 用 户 的 抑郁 程度 从 夏季 到 冬季 的 时 间 段 内 
通常 会 提高 。 
23. Amite 

主题 模型 也 被 应 用 于 人 格 研究 之 中 。 人 格 是 
心理 科学 领域 的 一 个 基本 研究 范畴 ,目的 是 探索 
共同 的 心理 现象 在 个 体 身 上 表现 的 差异 性 ,传统 
人 格 测量 一 般 通 过 自 陈 式 量 表 或 者 投射 测验 的 方 
法 进行 , 早期 研究 发 现 词汇 使 用 具有 稳定 的 个 体 
差异 且 人 格 与 自 陈 式 报告 可 靠 相 关 (Pennebaker & 
King, 1999)。 但 由 于 自 陈 量 表 需 要 人 工 填写 ， 难 以 
有 效 实现 针对 大 规模 用 户 的 实时 测量 ， 因 此 需要 
进一步 完善 ( 朱 廷 副 , 2016)， 社 交 媒 体 上 的 文本 数 
据 通常 是 个 体 在 自然 的 社会 环境 中 书写 的 关于 自 
己 真实 生活 内 容 的 表达 (Back et al.，2010)， 因 此 
社交 媒体 上 的 语言 是 研究 人 格 特征 的 一 个 非常 丰 


抑郁 症 、 流 感 、 肠 应 激 综 合 征 等 )， 这些 疾病 与 真 
实 监测 和 调查 数据 显著 相关 。Preotiuc-Pietro 等 人 
(2015) 对 选取 的 包含 抑郁 症 、PTSD 患者 以 及 健康 
人 群 (对 照 组 ) 的 1,145 名 Twitter 用 户 的 内 容 进行 
主题 提取 ,利用 提取 主题 结果 构建 标签 训练 了 三 
个 标准 机 器 学 习 的 二 进 制 分 类 器 , 使 用 ROC 曲线 
(AUC) 下 的 面积 评估 标记 主题 模型 正确 区 分 不 同 
精神 障碍 的 能 力 ， 抑 郁 症 组 和 控制 组 、PTSD 组 和 
控制 组 、 抑 郁 症 组 和 PTSD 三 组 的 AUC 值 分 别 是 
0.871、 0.883, 0.801。 Nguyen, Phung, Dao, Venkatesh 
All Berk (2014) 通 过 抓 取 在 线 抑郁 社区 及 控制 组 社 
区 的 网 络 文本 ,利用 LIWC 及 主题 模型 对 这 两 个 
文档 集 进 行 分 析 , 利用 LIWC 比较 两 个 人 群 的 使 
用 区 别 ,并 构建 一 个 主题 数 为 50 的 主题 模型 分 别 
对 文本 进行 主题 抽取 。 为 比较 哪些 特征 对 抑郁 症 


富 的 数据 库 ， 近 年 来 利用 社交 媒体 针对 大 规模 人 
群 的 人 格 研 究 内容 十 分 丰富 (Hughes, Rowe, Batey, 
& Lee, 2012; Quercia, Lambiotte, Stillwell, Kosinski, 
& Crowcroft, 2012; Schwartz et al., 2013; Ortigos, 
Carro, & Quiroga, 2014)， 并 且 有 研究 比较 人 类 和 
利用 计算 机 模型 的 人 格 判断 的 准确 性 ， 结 果 表 明 
计算 机 预测 (r = 0.56) 比 参与 者 的 Facebook 好 友 使 
用 人 格 问 卷 预 测 (r = 0.49) 结 果 更 准确 (Wu， 
Kosinski, & Stillwell, 2015)。 

在 人 格 研究 领域 主题 模型 最 初 用 于 探索 主题 
使 用 和 人 格 之 间 的 关系 ,Schwartz 等 人 (2013) 第 一 
次 利用 LDA 提取 的 主题 特征 来 构建 大 五 人 格 特 
征 的 函数 ， 发 现 诸多 关于 人 格 特征 与 主题 使 用 之 
间 的 联系 , 例如 情绪 稳定 的 人 提 到 更 多 的 体育 和 
生活 活动 ， 外 向 的 人 更 多 的 和 派对 相关 联 等 。 随 


社区 有 更 好 的 预测 力 , 文中 使 用 正规 化 的 回归 模 
型 Lasso 分 别 对 1,000 名 抑郁 患者 和 1,000 名 控制 
组 被 试 进行 区 分 ,发 现 LIWC 和 主题 模型 提取 结 
果 都 能 有 效 的 区 分 这 两 类 人 , 但 是 主题 模型 结果 
(93%) 略 优 于 LIWC 的 结果 (88%)。 


着 研究 的 发 展 人 格 主题 模型 也 被 不 断 提出 来 。 
Liu, Wang 和 Jiang (2016) 建 立 PT-LDA 模型 用 来 
预测 社交 网 络 用 户 的 个 性 特征 ,模型 假设 主题 的 
选择 决定 了 人 格 类 型 ,Hu, Liu, Zhang fll Xu (2017) 
提出 一 个 新 的 人 格 主题 模型 和 PT-LDA 相反 ， 


有 些 精神 障碍 (例如 ,抑郁 证 ) 是 随 着 时 间 而 
变化 的 连续 结构 ， 而 不 仅仅 只 是 诊断 有 或 者 没有 


该 模型 假设 人 格 类 型 (Personality) 决 定 了 主题 的 选 
择 , 主题 是 服从 高 斯 分 布 的 人 格 特点 (Personality 
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Traits) 的 集合 ， 人格 特 点 又 通过 服从 多 项 分 布 的 
单词 来 表现 ,模型 利用 MyPersonality dataset 进行 
测验 , 结果 表明 该 模型 对 于 人 格 有 良好 的 预测 。 
24 ”主题 模型 的 扩展 

近年 来 面 对 不 同 的 需要 ,结合 具体 文本 背景 
言 息 的 主题 模型 在 心理 学 领域 有 着 诸多 应 用 。 例 
如 许多 语义 认 知 心理 学 理论 认为 概念 通过 特征 来 
表示 ,但 由 于 人 类 提取 特征 的 经 验 过 程 依赖 于 明 
确 判 断 ， 这 限制 了 利用 特征 表示 概念 的 范围 ， 
Steyvers, Smyth 和 Chemuduganta (2011) 将 De Deyne 
等 人 (2008) 人 研究 的 特征 规范 (feature norms) 添 加 到 
主题 模型 中 , 模型 结果 表明 利用 特征 信息 能 更 准 
确 的 推断 文档 中 的 新 概念 。Steyvers 等 (2011) 利 用 
人 工 定义 的 语义 概念 的 层次 结构 与 主题 模型 相 结 
合 ， 从 而 构建 了 概念 层次 结构 主题 模型 ， 该 模型 
结果 表明 当 有 额外 的 背景 信息 时 ,模型 结果 的 解 
释 能 力 增强 。Griffiths, Steyvers 和 Tenenbaum (2007) 
通过 对 1967 年 以 来 的 《心理 评论 》(Psychological 
Review) 中 所 有 的 文章 摘要 构建 层次 主题 模型 ， 准 
确 地 还 原 了 40 年 间 在 该 期 刊 上 发 表 文 章 的 主题 
之 间 的 层次 化 关系 以 及 研究 主题 Priva 和 
Austerweil (2015) 对 《 认 知 》(Cognition) 期 刊 中 
1980-2014 年 间 发 表 的 3,014 篇 文章 的 摘要 进行 主 
题 建 模 ， 并 加 入 文章 发 表 时 间 元 数据 ， 以 此 跟踪 
道德 认 知 、 语 言 加 工 、 青 少年 发 展 等 5 个 研究 主 
题 随 着 时 间 的 变化 的 冷 热 程度 ， 此 外 还 发 现 认 知 
心理 学 的 研究 随 着 时 间 的 推移 ,从 注重 建立 抽象 
理论 转向 更 多 实验 研究 。 

总 之 , 目前 在 心理 学 领域 , 研究 人 员 利 用 主 
题 模型 开展 了 较为 丰富 的 研究 。 这 些 研究 探索 了 
大 规模 的 心理 咨询 文本 、 社 交 媒 体 数据 ; 结合 具 
体 文本 背景 信息 的 主题 模型 在 心理 学 领域 也 有 着 
诸多 应 用 。 这 些 研究 拓展 了 心理 学 的 研究 范围 ， 
丰富 了 文本 分 析 研 究 方法 的 研究 内 容 , 在 一 定 程 
度 上 克服 了 传统 文本 分 析 方 法 难以 开展 大 文本 分 
析 的 局 限 。 


3 ”主题 模型 自身 局 限 、 改 进 及 应 用 促进 


3.1 ”主题 模型 自身 局 限 及 改进 

作为 一 种 实用 的 计算 机 化 文本 分 析 方法 ， 主 
题 模型 虽然 在 众多 领域 得 到 了 应 用 , 但 是 它 并 不 
是 一 种 可 以 开 箱 即 用 的 工具 ， 主 题 模型 配置 的 复 
杂 性 和 主题 质量 问题 是 目前 主题 模型 使 用 者 遇 到 


的 一 个 普遍 性 问题 。 首先， 对 于 非 专家 而 言 ， 主 题 
模型 很 多 配置 可 能 难以 理解 。 参 数 设置 上 ， 对 于 
狄 利克 雷 分 布 参数 a 和 有 的 取 值 一 般 为 a = 50/K, 
B=0.01, 其 中 代表 主题 数 ， 这 样 取 值 是 为 了 起 
到 平滑 数据 的 作用 , 在 一 些 情 况 下 ， 也 可 以 使 用 
语 料 对 w 和 进行 经 验 贝 叶 斯 估计 ( 徐 艾 ， 王 厚 峰 
2011)。 对 于 主题 数 的 确定 ， 经 验 的 取 值 方法 一 般 
EHEN 20, 50, 100, 200 等 数值 ， 然 后 在 每 个 
主题 下 提取 10 个 关键 词 ( 刘 郁 文 , 2017)， 但 对 于 
不 同 的 文本 如 何 确定 合适 的 主题 数 并 没有 明确 的 
解决 方法 。 

另外 为 生成 高 质量 的 主题 ， 使 用 者 先 要 对 文 
本 做 很 多 预 处 理 , 例如 删除 停止 词 、 抽 取 短 语 
(Chunking) (Lee et al., 2017)。 针 对 这 些 问 题 ， 领 域 
专家 在 不 断 优 化 算法 、 扩 展 主题 模型 形式 的 基础 
E, 也 在 为 使 用 主题 模型 的 用 户 提 供 更 便利 的 操 
作 方 法 来 帮助 用 户 ， 如 果 对 主题 模型 提取 的 结果 
不 满意 ， 用 户 在 不 重新 配置 或 者 重新 建 模 的 基础 
上 也 可 以 通过 一 些 优化 策略 来 改进 结果 。 例 如 允 
许 用 户 直接 在 主题 下 面 添加 、 删 除 或 者 突出 显示 
单词 (Hu, Boyd-Graber, Satinoff, & Smith, 2014), 
也 可 以 在 主题 中 调整 单词 的 权重 、 合 并 或 者 分 割 
主题 并 创建 新 的 主题 (Choo, Lee, Reddy, & Park, 
2013), Lee, Kihm, Choo, Stasko 和 Park (2012) 则 允 
许 用 户 将 文档 重新 分 配给 其 他 主题 。 在 对 以 往 主 
题 模型 操作 改进 方法 进行 总 结 的 基础 上 , Lee 等 人 
(2017) 通 过 设计 实验 考察 了 非 专家 对 主题 模型 的 
感知 及 对 主题 模型 结果 的 优化 策略 的 选择 ,帮助 
非 专 家 更 好 的 使 用 主题 模型 。 

最 后 ， 由 于 中 文 的 特殊 性 ， 中 文 分 词 是 中 文 
自然 语言 处 理 的 固有 问题 。 李 湘 东 、 高 凡 和 丁 从 
(2017) 比 较 了 目前 最 广泛 使 用 的 三 种 中 文 分 词 方法 
在 LDA 模型 下 对 文本 分 类 性 能 的 影响 , 研究 结果 
显示 三 种 方法 都 能 有 效 的 进行 分 词 , 但 是 对 于 不 同 的 
文本 三 种 方法 在 分 词 的 准确 性 上 有 着 差异 , 并且 不 
同 的 中 文 分 词 方法 对 文本 分 类 的 结果 有 一 定 影响 。 
3.2 ”主题 模型 的 应 用 问题 及 促进 

在 心理 咨询 领域 , 利用 主题 模型 的 一 个 重要 
的 限制 可 能 是 转录 工作 带 来 的 。 在 使 用 主题 模型 
之 前 研究 人 员 需 要 转录 成 千 上 万 份 的 会 谈 逐 字 稿 ， 
这 是 一 项 耗 时 耗 力 的 工作 。 但 从 长 远 来 看 这 项 工 
作 是 值得 的 ， 因 为 大 型 咨询 文本 数据 库 的 建立 对 
于 心理 咨询 研究 的 潜在 影响 是 不 可 估量 的 , 并 且 
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随 着 自动 化 语音 识别 技术 的 发 展 ， 转 录 需 要 人 工 
参与 的 部 分 可 能 会 越 来 越 少 。 

另外 ,利用 网 络 数据 进行 研究 一 个 重要 的 问 
题 是 对 伦理 隐私 的 保护 。 互 联网 信息 技术 的 发 展 ， 
使 得 网 络 上 的 个 人 隐私 和 非 隐私 之 间 的 界限 似乎 
变 得 十 分 模糊 ， 并 且 前 所 未 有 的 数据 挖掘 、 数 据 
预测 以 及 更 全 面 的 监控 技术 的 发 展 , 使 得 对 个 人 
隐私 的 保护 也 变 得 更 为 困难 ( 巷 孚 ， 陈 红 兵 ， 
2015)。 利 用 主题 模型 对 各 类 心理 健康 问题 的 识 
别 、 监 控 和 预测 , 或 进行 人 格 计算 等 研究 ， 都 需要 


化 研究 ， 而 相对 轻 文本 分 析 等 质 性 研究 的 局 面 一 
直 没 有 改变 ， 其 中 一 个 重要 的 原因 是 经 济 有 效 的 
文本 分 析 方 法 没有 被 研究 者 所 掌握 ( 张 信 勇 ， 
2015)。 一 方面 在 临床 心理 学 、 管 理 心理 学 等 领域 
存在 着 大 量 的 咨询 会 谈 或 访谈 文本 记录 ; 另 一 方 
面 互联 网 也 记录 了 海量 的 人 类 心理 和 行为 的 文本 
数据 ,但 这 些 富 含 研究 价值 的 文本 资料 并 没有 得 
到 有 效 的 使 用 。 诸 如 LIWC、 洪 在 语义 分 析 (LSA) 
和 本 文 提 到 的 主题 模型 等 计算 机 化 文本 分 析 方 法 
没有 在 本 土 心理 学 的 研究 中 得 到 广泛 的 使 用 。 


挖掘 相关 的 网 络 数 据 ， 在 互联 网 信息 技术 发 展 带 
来 的 变革 中 ,研究 者 需要 在 风险 和 创新 之 间 找 到 
一 个 平衡 点 ,规避 数据 隐私 伦理 问题 。 

总 之 , 主题 模型 自身 以 及 应 用 上 目前 还 存在 
着 诸多 局 限 ， 尤 其 在 汉语 语言 背景 下 ,这 些 局 限 
限制 了 主题 模型 在 心理 学 研究 领域 的 使 用 范围 。 
目前 研究 者 也 在 不 断 地 在 对 这 些 局 限 进行 改进 ， 
以 提高 主题 模型 的 质量 及 使 用 范围 。 男 外 在 目前 
言 息 与 技术 高 速 发 展 的 时 代 ， 也 需要 我 们 心理 学 
研究 者 与 其 他 领域 的 研究 人 员 开 展 跨 领域 合作 研 
究 ， 从 而 更 好 地 解决 我 们 在 研究 中 遇 到 的 问题 。 


4 ”小 结 与 展望 


4.1 小 结 

作为 一 种 计算 机 化 文本 分 析 的 方法 ， 主 题 模 
型 被 用 来 探索 心理 咨询 和 社交 媒体 上 人 们 的 语言 
内 容 。 在 心理 咨询 领域 研究 人 员 探 索 了 在 咨询 过 
程 中 来 访 者 和 咨询 师 讨论 的 主要 话题 和 咨询 师 的 
干预 措施 ， 区 分 不 同 的 治疗 流派 ， 并 尝试 利用 主 
题 模型 进行 编码 ; 利用 社交 媒体 上 的 数据 ， 人 研究 
人 员 探 索 了 不 同心 理 障碍 群体 主要 谈论 的 内 容 ， 
探索 他 们 关注 的 问题 ,并且 利用 主题 模型 的 结果 
对 不 同 的 心理 障碍 进行 区 分 和 预测 ; 另外 仅仅 利 
用 人 们 在 社交 媒体 上 发 布 的 动态 ， 主 题 模 型 以 高 
度 准确 的 方式 对 发 布 者 的 人 格 进行 了 预测 。 主 题 
模型 在 心理 学 研究 中 取得 了 诸多 研究 成 果 , 但 是 
由 于 某 些 局限 性 使 得 需要 对 这 一 研究 方法 进行 进 
一 步 的 改进 。 不 过 从 现 有 研究 结果 来 看 ， 主 题 模 
型 在 心理 学 文本 分 析 领 域 的 研究 中 有 着 较 大 潜力 ， 
未 来 也 需要 我 们 进一步 拓展 和 使 用 该 方法 在 心理 
学 领域 的 研究 。 
4.2 ”研究 展望 

长 期 以 来 , 本 土 的 心理 学 重 问卷 、 实 验 等 量 


虽然 这 些 研究 方法 并 不 完美 , 但 是 目前 这 些 方法 
的 使 用 ， 对 于 我 们 开展 心理 学 中 关于 文本 分 析 的 
研究 有 着 重要 的 价值 。 

我 们 通过 语言 来 表达 对 自我 和 世界 的 认识 ， 
也 通过 语言 和 世界 建立 联系 ,正如 海 格 德尔 所 说 ， 
语言 是 存在 的 家 园 ， 人 先天 地 就 被 语言 所 贯穿 、 
所 引导 (Heidegger, 2009), 诸多 文本 中 包含 着 重要 
的 研究 价值 。 为 不 使 明珠 蒙 尘 , 在 未 来 的 研究 中 ， 
人 研究 者 可 以 积极 利用 主题 模型 开展 相关 的 研究 ， 
将 主题 模型 等 文本 分 析 工 具 应 用 到 咨询 会 谈 、 访 
谈 文 本 以 及 互联 网 中 的 各 种 文本 数据 中 ,探索 中 
文 环境 下 不 同类 型 文本 的 丰富 内 涵 ; 也 可 以 开展 
跨 文化 比较 研究 ,探索 中 西方 文化 下 不 同情 境 中 
出 现 的 主题 差异 及 背后 的 原因 ; 此 外 ,由 于 主题 
模型 在 算法 和 操作 上 也 在 不 断 的 发 展 ， 未 来 可 以 
通过 多 种 途径 对 主题 模型 改进 ， 如 通过 整合 关于 
时 间 和 句法 结构 的 信息 等 途径 (Weusthoff et al., 
2016), 来 改善 心理 学 领域 中 利用 主题 模型 开展 的 
文本 分 析 。 


参考 文献 


陈 凯 ， 朱 钰 . (2007). PF REM OS SEYEZRWR. 4h 
TEE IE E, 22(5), 105-112. 

T RRR. (2010). Æ FMR IE ETE If XC OBERE TEL 
IMAG ERLE). 浙江 大 学 ， 杭 州 . 

mai Bi, WE, EM, AWR, REA. (2013). 中 文 语言 
3E 4 WT BER EN. ORAA CUB BED BEF 
BPW Nt e BI HESE PARA I IE CAE. 南京 . 

Heidegger, M. (2009). ZAF ( 孙 周 兴 VÉ) 上 海 : 商务 印 书馆 

乐 国安 ， 董 颖 红 ， 陈 浩 ， 赖 凯 生 . (2013). 在 线 文 本 情感 分 
WRARMA. PEPPER, 21(10), 1711-1719 

李湘 东 , 高 凡 ， 丁 从 . (2017). Lda 模型 下 不 同 分 词 方法 对 
文本 分 类 性 能 的 影响 研究 ， TPA EA, 34(1), 
62-66. 

KU ARSC. (2017). MBA LIOR KLEE by (硕士 


AT! 


718 心 理 


第 26 卷 


学 位 论文 ). 台湾 大 学 ,台北 . 

鲁 忠义 ， 孙 锦绣 . (2007). 语义 空间 的 研究 方法 . 心 现 党 族 
BF, 27(3), 22-28. 

ERE, HERA. (2006). AMO HE. 北京 : 北京 大 学 出 版 社 . 

ek, 王 厚 峰 . (2011). 自然 语言 处 理 中 主题 模型 的 发 展 . 
VH GP FIR, 34(8), 1423-1436. 

BEA, WRAL. (2015). 大 数据 隐私 伦理 问题 探究 ， AARP 
LEVE WK, 31(2), 44-48. 

ik fa 83. (2015). LIWC: 一 种 基于 语词 计量 的 文本 分 析 工 
RB. ARK FFI A RHEE, 36(4), 101-104. 

AEB. (2016). KAA MIEI DEA T TEACH. 北京 : 
科学 出 版 社 . 

朱 廷 动 , ERE, Aii, AE. (2015). 论 大 数据 时 代 的 
Dy TEE FEE LITE KA FIR: HEUREA, 
(4), 100-107. 

Abdi, H., & Williams, L. J. (2010). Principal component analysis. 
Wiley Interdisciplinary Reviews: Computational Statistics, 
2(4), 433-459. 

Andrews, M., & Vigliocco, G. (2010). The hidden Markov 


topic model: A probabilistic model of semantic representation. 


Topics in Cognitive Science, 2(1), 101—113. 

Atkins, C., Rubin, T. N., Steyvers, M., Doeden, M. A., 
Baucom, B. R., & Christensen, A. (2012). Topic models: 
A novel method for modeling couple and family text data. 
Journal of Family Psychology, 26(5), 816—827. 

Atkins, D. C., Steyvers, M., Imel, Z. E., & Smyth, P. (2014). 
Scaling up the evaluation of psychotherapy: Evaluating 
motivational interviewing fidelity via statistical text 
classification. Implementation Science, 9, 49. 

Back, M. D., Stopfer, J. M., Vazire, S., Gaddis, S., Schmukle, 
S. C., Egloff, B., & Gosling, S. D. (2010). Facebook profiles 
reflect actual personality, not self-idealization. Psychological 
Science, 21(3), 372-374. 

Blei, D. M., & Lafferty, J. D. (2005). Correlated topic models. 
In Proceedings of the 18th international conference on neural 
information processing systems (pp. 147—154). Vancouver, 
British Columbia, Canada: MIT Press. 

Blei, D. M., Ng, A.Y., & Jordan, M. I. (2003). Latent Dirichlet 
Allocation. Journal of Machine Learning Research 3, 
993—1022. 

Boyd-Graber, J. L., & Blei, D. M. (2009). Syntactic topic 
models. In Advances in Neural Information Processing 
Systems 26 (pp. 185-192). Lake Tahoe, Nevada, USA: 
MIT Press. 

Choo, J., Lee, C., Reddy, C. K., & Park, H. (2013). Utopian: 
User-driven topic modeling based on interactive nonnegative 
matrix factorization. IEEE Transactions on Visualization 
and Computer Graphics, 19(12), 1992—2001. 

Cohn, D. A., & Hofmann, T. (2001). The missing link-a 


probabilistic model of document content and hypertext 


connectivity. In Advances in Neural Information Processing 
Systems 13 (pp. 430—436). London, England: MIT Press. 

de Choudhury, M., Gamon, M., Counts, S., & Horvitz, E. 
(2013). Predicting depression via social media. In Proceedings 
of the Seventh international AAAI conference on weblogs 
and social media (pp. 128-137). Boston, MA: AAAI 
Publications. 

De Deyne, S., Verheyen, S., Ameel, E., Vanpaemel, W., Dry, 
M., Voorspoels, W., & Storms, G. (2008). Exemplar by 
feature applicability ^ matrices and other Dutch normative 
data for semantic concepts. Behavior Research Methods, 
40(4), 1030-1048. 

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., 
& Harshman, R. (1990). Indexing by latent semantic analysis. 
Journal of the American Society for Information Science, 
41(6), 391—407. 

Gaut, G., Steyvers, M., Imel, Z. E., Atkins, D. C., & Smyth, P. 
(2017). Content coding of psychotherapy transcripts using 
labeled topic models. IEEE Journal of Biomedical and 
Health Informatics, 21(2), 476—487. 

Golder, S. A., & Macy, M. W. (2011). Diurnal and seasonal 
mood vary with work, sleep, and daylength across diverse 
cultures. Science, 333(6051), 1878-1881. 

Graesser, A. C., McNamara, D. S., & Kulikowich, J. M. 
(2011). Coh-Metrix: Providing multilevel analyses of text 
characteristics. Educational Researcher, 40(5), 223—234. 

Greenberg, L. S., & Newman, F. L. (1996). An approach to 
psychotherapy change process research: Introduction to 
the special section. Journal of Consulting and Clinical 
Psychology, 64(3), 435—438. 

Griffiths, T. L., Steyvers, M., & Tenenbaum, J. B. (2007). 
Topics in semantic representation. Psychological Review, 
114(2), 211—244. 

Hofmann, T. (1999, August). Probabilistic latent semantic 
indexing. In Proceedings of the 22nd annual international 
ACM SIGIR conference on research and development in 
information retrieval (pp. 50—57). Berkeley, California, 
USA: ACM. 

Hughes, D. J., Rowe, M., Batey, M., & Lee, A. (2012). A tale 
of two sites: Twitter vs. Facebook and the personality 
predictors of social media usage. Computers in Human 
Behavior, 28(2), 561—569. 

Hu, Y. N., Boyd-Graber, J., Satinoff, B., & Smith, A. (2014). 
Interactive topic modeling. Machine Learning, 95(3), 423— 
469. 

Hu, Z., Liu, Y. S., Zhang, C. H., & Xu, Y. N. (2017, June). 
The analysis of topic's personality traits using a new topic 
model. In 2017 2nd international conference on image, 
vision and computing (ICIVC) (pp. 1079-1083). Chengdu: 
IEEE. 


第 5 期 LI 


奔 等 : 大 数据 时 代 心 理学 文本 分 析 技 术 一 一 主题 模型 ”的 应 用 779 


Imel, Z. E., Steyvers, M., & Atkins, D. C. (2015). Computational 
psychotherapy research: Scaling up the evaluation of 
patient-provider interactions. Psychotherapy, 52(1), 19-30. 

Ji, Y. F., Hong, H., Arriaga, R., Rozga, A., Abowd, G, & 
Eisenstein, J. (2014). Mining themes and interests in the 
Asperger's and autism community. In Workshop on 
computational linguistics and clinical psychology: From 
linguistic signal to clinical reality (pp. 97—106). Baltimore, 
Maryland USA: ACL. 

John Lu, Z. Q. (2010). The elements of statistical learning: 
Data mining, inference, and prediction. Journal of the 
Royal Statistical Society: Series A (Statistics in Society), 
173(3), 693—694. 

Kosinski, M., Matz, S. C., Gosling, S. D., Popov, V., & 
Stillwell, D. (2015). Facebook as a research tool for the 
social sciences: Opportunities, challenges, ethical considerations, 
and practical guidelines. American Psychologist, 70(6), 
543-556. 

Kosinski, M., Wang, Y. L., Lakkaraju, H., & Leskovec, J. 
(2016). Mining big data to extract patterns and predict 
real-life outcomes. Psychological Methods, 21(4), 493—506. 

Lee, H., Kihm, J., Choo, J., Stasko, J., & Park, H. (2012). 
iVisClustering: An interactive visual document clustering 
via topic modeling. Computer Graphics Forum, 31, 1155— 
1164. 

Lee, T. Y., Smith, A., Seppi, K., Elmqvist, N., Boyd-Graber, 
J., & Findlater, L. (2017). The human touch: How non- 
expert users perceive, interpret, and fix topic models. 
International Journal of Human-Computer Studies, 105, 
28-42. 

Liu, Y. Z., Wang, J. J., & Jiang, Y. C. (2016). PI-LDA: A 
latent variable model to predict personality traits of social 
network users. Neurocomputing, 210, 155—163. 

Miller, W. R., Moyers, T. B., Ernst, D., & Amrhein, P. (2008). 
Manual for the Motivational Interviewing Skill Code 
(MISC). Version 2. 1. University of New Mexico, Center 
on Alcoholism. 

Mitchell, M., Hollingshead, K., & Coppersmith, G. (2015, 
June). Quantifying the language of schizophrenia in social 
media. In Proceedings of the 2nd workshop on computational 
linguistics and clinical psychology: From linguistic signal 
to clinical reality (pp. 11—20). Denver, Colorado: ACL. 

Nguyen, T., Phung, D., Dao, B., Venkatesh, S., & Berk, M. 
(2014). Affective and content analysis of online depression 
communities. IEEE Transactions on Affective Computing, 
5(3), 217-226. 

Ortigosa, A., Carro, R. M., & Quiroga, J. I. (2014). Predicting 
user personality by mining social interactions in Facebook. 
Journal of Computer and System Sciences, 80(1), 57—71. 

Park, G., Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., 


Kosinski, M., Stillwell, D. J., ... Seligman, M. E. P. (2015). 
Automatic personality assessment through social media 
language. Journal of Personality and Social Psychology, 
108(6), 934—952. 

Paul, M. J., & Dredze, M. (2014). Discovering health topics 
in social media using topic models. PLoS One, 9(8), 
e103408. 

Pennebaker, J. W., Chung, C. K., Ireland, M., Gonzales, A., 
& Booth, R. J. (2007). The development and psychometric 
properties of liwc2007. Austin, 29(11), 1020—1025. 

Pennebaker, J. W., & King, L. A. (1999). Linguistic styles: 
Language use as an individual difference. Journal of Personality 
and Social Psychology, 77(6), 1296-1312. 

Pennebaker, J. W., Mehl, M. R., & Niederhoffer, K. G. 
(2003). Psychological aspects of natural language use: Our 
words, our selves. Annual Review of Psychology, 54(1), 
547-577. 

Preotiuc-Pietro, D., Eichstaedt, J., Park, G, Sap, M., Smith, 
L., Tobolsky, V., ... Ungar, L. (2015, June). The role of 
personality, age and gender in tweeting about mental 
illnesses. In Proceedings of the 2nd workshop on 
computational linguistics and clinical psychology: From 
linguistic signal to clinical reality (pp. 21-30). Denver, 
Colorado: Association for Computational Linguistics. 

Priva, U. C., & Austerweil, J. L. (2015). Analyzing the 
history of Cognition using topic models. Cognition, 135, 
4-9. 

Quercia, D., Lambiotte, R., Stillwell, D., Kosinski, M., & 
Crowcroft, J. (2012, February). The personality of popular 
Facebook users. In Proceedings of the ACM 2012 conference 
on computer supported cooperative work (pp. 955—964). 
Seattle, Washington, USA: ACM. 

Rubin, T. N., Chambers, A., Smyth, P., & Steyvers, M. 
(2012). Statistical topic models for multi-label document 
classification. Machine Learning, 88(1-2), 157—208. 

Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, 
L., Ramones, S. M., Agrawal, M., ... Ungar, L. H. (2013). 
Personality, gender, and age in the language of social media: 
The open-vocabulary approach. PLoS One, 8(9), e73791. 

Schwartz, H. A., Eichstaedt, J., Kern, M. L., Park, G., Sap, 
M., Stillwell, D., ... Ungar, L. (2014, June). Towards 
assessing changes in degree of depression through 
Facebook. In Proceedings of the workshop on computational 
linguistics and clinical psychology: From linguistic signal 
to clinical reality (pp. 118—125). Baltimore, Maryland 
USA: Association for Computational Linguistics. 

Steyvers, M., Smyth, P., & Chemuduganta, C. (2011). 
Combining background knowledge and learned topics. 
Topics in Cognitive Science, 3(1), 18—47. 

Tanana, M., Hallgren, K. A., Imel, Z. E., Atkins, D. C., & 


780 心理 科学 进展 第 26 4 


Srikumar, V. (2016). A comparison of natural language 
processing methods for automated coding of motivational 
interviewing. Journal of Substance Abuse Treatment, 65, 
43-50. 

Tausczik, Y. R., & Pennebaker, J. W. (2010). The psychological 
meaning of words: LIWC and computerized text analysis 
methods. Journal of Language and Social Psychology, 
29(1), 24—54. 

Tucker, G. J., & Rosenberg, S. D. (1975). Computer content 
analysis of schizophrenic speech: A preliminary report. 
The American Journal of Psychiatry, 132(6), 611—616. 

Wallach, H. M. (2006, June). Topic modeling: Beyond 
bag-of-words. In Proceedings of the 23rd international 
conference on machine learning (pp. 977—984). Pittsburgh, 
Pennsylvania, USA: ACM. 

Wang, C., Blei, D., & Heckerman, D. (2012). Continuous 
time dynamic topic models. arXiv preprint arXiv:1206.3298. 

Wang, X. R., McCallum, A., & Wei, X. (2007, October). 


Topical n-grams: Phrase and topic discovery, with an 
application to information retrieval. In Seventh IEEE 
international conference on data mining, 2007 (pp. 697— 
702). Omaha, NE: IEEE. 

Weusthoff, S., Gaut, G., Steyvers, M., Atkins, D. C., Hahlweg, 
K., Hogan, J., .. Narayanan, S. (2016). The Language of 
Interpersonal Interaction: An Interdisciplinary Approach 
to Assessing and Processing Vocal and Speech Data. The 
European Journal of Counselling Psychology. 

Wu, Y. Y, Kosinski, M., & Stillwell, D. 


Computer-based personality judgments are more accurate 


(2015). 


than those made by humans. Proceedings of the National 
Academy of Sciences of the United States of America, 
112(4), 1036-1040. 

Zimmermann, T., Baucom, D. H., Irvin, J. T., & Heinrichs, N. 
(2015). Cross-country perspectives on social support in 
couples coping with breast cancer. Frontiers in Psychological 
and Behavioral Science, 4(4), 52—61. 


Technology of text analysis in the big data era: Application of the topic model 


CAO Ben'; XIA Mian!; REN Zhihong””; LIN Xiubin!; 
XU Sheng!; LAI Lizu’; WANG Qi’; JIANG Guangrong! 
(! School of Psychology, Central China Normal University, and Key Laboratory of Human Development and Mental Health of Hubei Province; 
Key Laboratory of Adolescent CyberPsychology and Behavior (CCNU), Ministry of Education, Wuhan 430079, China) 
( Department of applied psychology, Fuzhou university, Fuzhou 350108, China) 
C Department of Counseling Psychology, University of Wisconsin-Madison, Wisconsin 53703, USA) 


Abstract: Topic Model is a computerized text analysis method and has been used widely in the field of 
psychology. For counseling research, this method has the potential for exploring themes of conversations 
between the therapist and patient, comparing the semantic similarity of different treatments and establishing 
behavioral coding systems. Using data from social media, researchers may use topic model to identify and 
predict various mental disorders, carry out calculations pertaining personality. Further, this paper discusses 
needed improvements of the topic model, and its application in the Chinese language environment. Topic 
model can be used to explore the psychological meaning of Chinese texts. 
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